<!DOCTYPE html>
<html lang="en">
<head>
	<meta charset="UTF-8">
	<meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1">
	<title>符号同义词 | Elasticsearch: 权威指南 | Elastic</title>
    <!-- Give IE8 a fighting chance -->
    <!--[if lt IE 9]>
    <script src="https://oss.maxcdn.com/html5shiv/3.7.2/html5shiv.min.js"></script>
    <script src="https://oss.maxcdn.com/respond/1.4.2/respond.min.js"></script>
    <![endif]-->
	<link rel="stylesheet" type="text/css" href="../static/styles.css" />
</head>
<body>
<div class="main-container">
    <section id="content">
        
        <div class="content-wrapper">
            <section id="guide" lang="zh_cn">
                <div class="container">
                    <div class="row">
                        <div class="col-xs-12 col-sm-8 col-md-8 guide-section">
                            <div style="color:gray; word-break: break-all; font-size:12px;">原文地址: <a href="https://www.elastic.co/guide/cn/elasticsearch/guide/current/symbol-synonyms.html" rel="nofollow">https://www.elastic.co/guide/cn/elasticsearch/guide/current/symbol-synonyms.html</a>, 版权归 www.elastic.co 所有<br/>
                            英文版地址: <a href="https://www.elastic.co/guide/en/elasticsearch/guide/current/symbol-synonyms.html" rel="nofollow">https://www.elastic.co/guide/en/elasticsearch/guide/current/symbol-synonyms.html</a>
                            </div>
                        <!-- start body -->
                  <div class="page_header">
<b>请注意:</b><br>本书基于 Elasticsearch 2.x 版本，有些内容可能已经过时。
</div>
<div id="content">
<div class="breadcrumbs">
<span class="breadcrumb-link"><a href="index.html">Elasticsearch: 权威指南</a></span>
»
<span class="breadcrumb-link"><a href="languages.html">处理人类语言</a></span>
»
<span class="breadcrumb-link"><a href="synonyms.html">同义词</a></span>
»
<span class="breadcrumb-node">符号同义词</span>
</div>
<div class="navheader">
<span class="prev">
<a href="multi-word-synonyms.html">« 多词同义词和短语查询</a>
</span>
<span class="next">
<a href="fuzzy-matching.html">拼写错误 »</a>
</span>
</div>
<div class="section">
<div class="titlepage"><div><div>
<h2 class="title">
<a id="symbol-synonyms"></a>符号同义词 (Symbol Synonyms)<a class="edit_me edit_me_private" rel="nofollow" title="Editing on GitHub is available to Elastic" href="https://github.com/elasticsearch-cn/elasticsearch-definitive-guide/edit/cn/260_Synonyms/70_Symbol_synonyms.asciidoc">edit</a>
</h2>
</div></div></div>
<p>最后一节内容我们来阐述下怎么对符号进行同义词处理，这和我们前面讲的同义词处理不太一样。
 <em>符号同义词</em> 是用<b>别名</b>来表示这个符号，以防止它在分词过程中被误认为是不重要的标点符号而被移除。</p>
<p>虽然绝大多数情况下，符号对于全文搜索而言都无关紧要，但是字符组合而成的表情，maybe是很有意义的东西，甚至有时候会改变整个句子的含义，对比一下这两句话：</p>
<div class="ulist itemizedlist pagebreak-before">
<ul class="itemizedlist">
<li class="listitem">
我很高兴能在星期天工作。<code class="word">原文: I am thrilled to be at work on Sunday.</code>
</li>
<li class="listitem">
我很高兴能在星期天工作 :(  <code class="word">原文: I am thrilled to be at work on Sunday :(</code>
</li>
</ul>
</div>
<p><code class="literal">standard</code>分词器或许会简单地消除掉第二个句子里的字符表情，致使两个原本意思相去甚远的句子变得相同。</p>
<p>我们可以先使用
<a href="https://www.elastic.co/guide/en/elasticsearch/reference/5.6/analysis-mapping-charfilter.html" class="ulink" target="_top"><code class="literal">mapping</code></a>字符过滤器，在文本被传递给分词器处理之前，
把字符表情替换成符号同义词 <code class="word">emoticon_happy</code> 或者
<code class="word">emoticon_sad</code> ：</p>
<div class="pre_wrapper lang-json">
<pre class="programlisting prettyprint lang-json">PUT /my_index
{
  "settings": {
    "analysis": {
      "char_filter": {
        "emoticons": {
          "type": "mapping",
          "mappings": [ <a id="CO180-1"></a><i class="conum" data-value="1"></i>
            ":)=&gt;emoticon_happy",
            ":(=&gt;emoticon_sad"
          ]
        }
      },
      "analyzer": {
        "my_emoticons": {
          "char_filter": "emoticons",
          "tokenizer":   "standard",
          "filter":    [ "lowercase" ]
          ]
        }
      }
    }
  }
}

GET /my_index/_analyze?analyzer=my_emoticons
I am :) not :( <a id="CO180-2"></a><i class="conum" data-value="2"></i></pre>
</div>
<div class="calloutlist">
<table border="0" summary="Callout list">
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO180-1"><i class="conum" data-value="1"></i></a></p>
</td>
<td align="left" valign="top">
<p><code class="literal">mapping</code> 过滤器把字符从 <code class="literal">=&gt;</code> 左边的格式转变成右边的样子。</p>
</td>
</tr>
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO180-2"><i class="conum" data-value="2"></i></a></p>
</td>
<td align="left" valign="top">
<p>输出： <code class="word">i</code> 、 <code class="word">am</code> 、 <code class="word">emoticon_happy</code> 、 <code class="word">not</code> 、 <code class="word">emoticon_sad</code> 。</p>
</td>
</tr>
</table>
</div>
<p>很少有人会搜 <code class="word">emoticon_happy</code> 这个词，但是确保类似字符表情的这类重要符号被存储到索引中是非常好的做法，在进行情感分析的时候会很有用。当然，我们也可以用真实的词汇来处理符号同义词，比如： <code class="word">happy</code> 或者 <code class="word">sad</code> 。</p>
<p>提示： <code class="literal">mapping</code> 字符过滤器是个非常有用的过滤器，它可以用来对一些已有的字词进行替换操作，
你如果想要采用更灵活的正则表达式去替换字词的话，那你可以使用
<a href="https://www.elastic.co/guide/en/elasticsearch/reference/5.6/analysis-pattern-replace-charfilter.html" class="ulink" target="_top"> <code class="literal">pattern_replace</code> </a>字符过滤器。</p>

<div class="tip admon">
<div class="icon"></div>
<div class="admon_content">
<p><code class="literal">mapping</code> 字符过滤器是个非常有用的过滤器，它可以用来对一些已有的字词进行替换操作，
你如果想要采用更灵活的正则表达式去替换字词的话，那你可以使用
<a href="https://www.elastic.co/guide/en/elasticsearch/reference/5.6/analysis-pattern-replace-charfilter.html" class="ulink" target="_top"> <code class="literal">pattern_replace</code> </a>字符过滤器。</p>
</div>
</div>

</div>
<div class="navfooter">
<span class="prev">
<a href="multi-word-synonyms.html">« 多词同义词和短语查询</a>
</span>
<span class="next">
<a href="fuzzy-matching.html">拼写错误 »</a>
</span>
</div>
</div>

                  <!-- end body -->
                        </div>
                        <div class="col-xs-12 col-sm-4 col-md-4" id="right_col">
                        
                        </div>
                    </div>
                </div>
            </section>
        </div>
    </section>
</div>
<script src="../static/cn.js"></script>
</body>
</html>